科技评估需警惕“过度”倾向、“管理主义”陷阱

Original 方衍北京科学学 2022-07-09

政府管理需求推高了评估的热度，评估制度重于评估技术，好的制度有利于实现以学习和改进为导向的评估功能。

对“第三方评估”的讨论不应囿于概念、机构层面，而应视其为“第三方独立立场”，唯此才能保障评估的公正性。为破除对科技评估的诟病，既需要从资源配置的制度层面上加以研究和解决，也需要通过加强能力建设迎接评估新挑战。

政府是科技评估“热”的主要推手

科技活动的体制化格局加深了政府管理需求，科技评估作为一种新管理工具，为政府彰显绩效、发现问题和改进管理提供了重要支撑。

政府大规模R&D活动占用了大量的社会资源。一方面，通过评估要向社会证明使用这些资源带来的绩效，以维持大规模投入的合法性；另一方面，这些资源竞争激烈，需要通过评估合理分配和使用好这些资源，带来更多的产出和绩效。

由此，科技评估作为优化政府资源分配的重要手段，延伸到了科技管理的全过程，从技术预测——过程管理——产出绩效——社会影响。

评估的对象包括了重大专项、科技计划、课题项目、创新人才、研发机构、创新政策等。

评估主体越加广泛，形式更加多样，从中央、国务院对政策落实的督查，到各部委以及地方政府为落实自身工作开展的绩效评估，如双创、扶贫、援疆、人才、项目资助等，再加上高校、科研院所围绕学科建设、学术评价、人才激励开展的各类评估，可谓评估工作行政推动、无所不在、欲罢不能、蔚然成风。

同时，评估的“过度”也带来了一定的负面效应。

随着社会转型和改革发展带来的复杂性，政府的角色发生变化，社会各种利益矛盾凸显；开展评估活动既要向上级交账，还要向下激励；既要检查知情，还要督查落实；既要控制成本，还要产出绩效。

因而，政府通过评估加强干预的同时，不可避免地带来了“过度”倾向和“管理主义”陷阱。

久之，把一个原本以学习、改进为导向的评估活动了变成邀功请赏、宣传业绩和回避责任的途径，把原本作为改进管理、支撑决策的工具变成了唯上不唯实、对下不对上、功利主义盛行的“指挥棒”。

公共领域的评估需要公共理性的保障。

所谓公共理性，是指在评价一项改革措施或政策优劣时，必须超脱自身的、小集团的、部门的利益，站在公共的立场上独立表达意见而且无需考虑这些意见对自己利益的影响。

俗话讲，“公道不公道，打个颠倒”，公共理性就是要学会换位思考，不能因为你是干部就不考虑农民的利益，也不能因为你在科技部就职，就只为科技部说话而不考虑其他部门诉求。

话虽如此，做起来却难。政府各部门都是公共部门，但部门的利益化倾向始终存在，出于“守土有责”的考虑，评估就难以体现真正的客观公正。

特别是当你的“帽子”和“票子”来自上级主管部门，而评估涉及上级部门利益时，评估者很难独善其身。

所以，出路还在于制度设计。

政治学的一个基本原理是：谁给权利对谁负责（商业上同理：谁给钱替谁说话）。

因此，当评估一项政策执行情况时，对政策效果的反馈不应给政策执行部门而最好直接提交给政策的决策者，即形成决策、执行、评估三者相对分开，互相监督的运行机制。

这样既可以避免信息的丢失和截留，也保障了评估者能够更好地基于公共理性提供尽可能客观公正的评估判断。

现实中经常出现的情况是，高层领导（决策者）更愿意通过评估听到真实的情况，而中层部门（执行者）则更喜欢报喜不报忧，不想因结果不好而影响前途。

从心理学上讲，趋利避害是人之常情，如果评估反馈机制更加透明友好，如果奖惩措施更加科学包容，大家就更愿意讲真话，听实情，以学习、改进为导向的评估机制才更能得以实现。

在制度设计中体现公共理性并在制度执行中克服非公共理性，是制度设计的关键。

目前出台的有关评估的制度文件很多，大多数是各部门针对自身工作制定的，也有几个部委联合发布的，很多都是“大而全”的、原则性的“决定”或“意见”，执行起来缺少可操作性。

评估工作涉及管理各个层面，各有不同对象和目的。从性质上分，我国评估活动大多数还属于内部评估（系统内部为改进管理开展的评估），也有少量的评估属于外部评估（出于问责、交账等目的由系统外组织的评估，如财政支出公共绩效评估）。

由于“第三方评估”的流行，一些内部评估也交给了社会评估机构。在制度设计上，政府对评估的管理是根据具体任务发布评估指南，交给社会专业评估机构执行。这样可以避免“既当运动员，又当裁判员”的弊端。

至于执行机构到底是系统内部所属还是一定要外部的第三方，不能一概而论，关键要看执行机构与评估对象是否存在违背公共理性的利益关系。

“第三方评估”并非解决公正性的灵丹妙药

2011年科技部党组1号文提出“加强科技评估评价工作，完善国家科技计划评估评价体系和第三方独立评估制度”，目的在于充分发挥科技评价的导向和激励作用。

引入“第三方评估”主要是为了解决评估中的公正性，出发点是好的。

但在实践中，大家更多地把“第三方”片面理解为“第三方机构”，一些既对政府运行缺乏基本了解又不具备研究基础的机构，为争取政府资助，以“第三方”自居参与政府评估，看上去貌似“第三方”，实则并不具备“独立性”的基础，只不过是请一些专家按照政府意图完成评估工作。

如果这种“第三方评估”的经费渠道、运行机制与过去没有本质上的差别，再加缺少必要的约束措施和受商业化利诱，其“独立性”也会大打折扣，更谈不上结果的公正性，失去了制度设计的本意。

因此，从机构意义上，第三方也仅仅为“独立性”提供了可能的充分条件而非必要条件，真正实现独立性还需要其他环境条件和制度路径。

在国外公共领域评估中，极少使用“第三方”说法，一般都使用了“独立评估”，称作“独立评估局”“独立评估委员会”“独立评估专家”等。

这种独立性表现在，评估不受来自外界的任何控制和影响，始终可以自主地表达意见而且无需考虑这些意见对自己的利益的影响，保持评估观点、结论、判断和建议的客观公正。

可见，“第三方”和“独立”在概念有本质的区别，前者是手段，后者是根本。

诚然，就大环境而言，实现评估的“独立性”还存在一定难度；但概念上的混淆和不准确，容易将公共领域评估的发展引入歧途。

有人认为系统内部机构不能算是第三方，因此评估工作应该交给系统外部，这个观点有些狭隘和偏颇。

“第三方”也可以分为“同体第三方”和“异体第三方”，即指一个大系统内部/外部的与评估对象没有利益关系的机构。

“同体第三方”通过制度设计，如增加外部专家、合理安排经费、完善回避制度、加强制度规范等，同样可以独立、客观、公正地表达评估意见。

而“异体第三方”也可能会在商业化与行政化的博弈中，丧失独立性，从而影响评估的价值判断。

有研究表明，由系统内部还是系统外部进行评估，各有利弊。系统内部经长期跟踪，积累信息多，进入情况快，与决策者沟通容易；系统外部虽相对容易保持独立，但需要花更多时间进入情况，成本也会大大增加。

而任何评估都会在质量和实用性之间寻求平衡点。由此，如果把“第三方”仅仅看成机构层面，并无实际意义。

但如果从“第三方立场”出发，即加强评估的独立性，则可以打破现有格局，通过制度设计和程序规范，真正解决评估的独立性，实现评估的公正性。

从实践看，“第三方评估”的提法还容易造成评估责任主体的缺失，使“管理者成为评估的局外人，对没有得到所期望的结果可以不负责。由于评估不当造成的失败，其责任不在管理者”。

要解决评估独立性的问题，不仅仅是对执行评估的“第三方”而言，重要的是要解决好评估管理者（委托方）与评估者（执行方）的关系。

过去的研究表明，这种关系“有失公平，评估者处于无权的地位”“所评价的问题、资料的收集与阐释、向何人公布结果等，最后决策权掌握在管理者手中”“造成利益相关人无法在评价中维护自己的利益，阐述自己的见解，按照评估建议采取有效的改进行动”。

因此，“第三方评估”并非灵丹妙药，其独立性也受各种条件的约束，仅仅靠单一的、概念化的制度还不能解决评估的公正性问题。

对科技评估的诟病及其背后看不见的手

近几年，社会上对科技评估的诟病不绝于耳。主要集中在：

一是评价的导向只对下级、不对上级，重视形式、轻视结果，只说成绩、回避问题，成为管理的“指挥棒”。

二是评价的方法简单排名、过度量化，重视数量、轻视质量，标准单一、按“一刀切”，大量垃圾论文充斥，带来科研的浮躁。

三是评价的结果与利益挂钩多，带来了科研的短期效应、失去了成果的长远价值；污染了求真的学术精神、破坏了卓越的科学文化。

科研人员对此早有改革的呼声，中国科学院和中国工程院的院士都曾大量调研并向中央建言献策，政府部门也不断出台各种文件试图解决，可效果并不显著，有些甚至愈演愈烈（比如对SCI论文的追逐）。

社会各界都不满意，把问题归结于科技评价体系本身不健全，但又始终跳不出这个怪圈。

如果从科技资源配置的角度观察，可发现这些问题背后的蛛丝马迹。

美国普林斯顿大学唐纳德·斯托克斯提出的“科学研究的象限模型”，其中第三象限（巴斯德象限）代表了能够激发应用的基础研究，也是美国国防高技术研究项目局（DARPA）对科研项目遴选遵循的主要标准。

依照这个象限模型观察我国政府资助科研经费的优先序，可以发现：

（1）2008年—2015年，代表第一象限（玻尔象限）的国家自然科学基金经费占财政基础研究投入比重从24.3%急剧上升到40.4%（从53亿元增长到222亿元），教育部门和科研部门对以个人兴趣为导向的基础研究投入的比重更高。玻尔象限经费数量的急剧增长必然导致论文产出数量增加，强化了论文导向的科技评价。

（2）2015年在我国基础及应用研究活动中，大学和科研机构R&D人员全时当量占比约79%，R&D经费支出占比约为81%；在试验开发活动中，企业R&D人员全时当量占比93.5%，R&D经费支出占比约89%。这种二元科技资源配置结构形成了大学和院所科学研究自循环、企业技术开发自循环，导致科技与经济两张皮。

（3）中央级科研经费中的竞争性经费过高，比例一度接近80%。保障性经费不足，导致高校和院所科学家被迫投入大量时间和精力参加各种评价活动以竞争科研经费，评价指标也会向竞争性经费倾斜，带来论文导向。

（4）我国科技评价中出现的问题，主要根源在于科技资源配置结构出现了问题。仅依靠科技评价方法和程序的修修补补，不可能从根本上解决评价导向的偏差问题，还需要从资源配置的制度层面上加以研究和解决。

人才工作和科技奖励是科技资源配置中的重要内容，也成为科研人员对科技评价诟病的焦点，过度引导带来科技评价主体过多、频次过高、要求过繁。

近些年来，中央有关部门和各省市推出各种名目的人才计划，在吸引、培养创新人才方面发挥了积极作用。由于人才计划政出多门，定位重叠，所引发的负面效应日益凸显。

五花八门的人才“帽子工程”，政府庞大的科技奖励系统，评价结果与资源分配的紧密挂钩，政府和社会对排名结果的过度关注，不仅把学术评价变成学术评比，把学科评估变成学校排行，还把人才评价变成科技奖励。

各种评估评价评审频次过多、规模扩张，主体叠床架屋，对象循环嵌套，不仅耗费了大量的时间和经费，还助长了急功近利、目标短视和学术不端行为的发生，甚至对政府的公信力产生质疑。

这些现象，表面上看是科技评价体系不完善所致，其实无不与政府（包括行政色彩较重的高校和科研机构）在资源配置中的过度干预有直接关系。

这种一手抓分配，一手抓评价，并以评价结果作为配置资源主要依据的管理主义做法，直接体现了政府和公共行政部门的意志和权力，也异化了科技评价的根本导向，已经远远超出了科技评价体系的自身建设问题，应在更高层次的制度安排上予以充分关注。

作者简介：方衍，中国科技评估中心研究员，主要研究方向为科技政策、科技评估。

▼往期阅读▼

伊彤：推动文化科技融合，助力首都高质量发展

从“欧洲硅谷”看怀柔科学城建设

中国高校科技成果转化同发达国家有一定差距，应从多方发力

文化保护传承与科技创新融合，以数字化技术疗愈圆明园历史之殇

政府推动原始创新能力的国际比较及启示

中美友好合作故事——十万名中国弃婴长大了

中美友好合作故事——十万名中国弃婴长大了

中美友好合作故事——十万名中国弃婴长大了

看个病要排队两年，癌症都被拖成晚期

中共中央批准：作出对高朋逮捕决定

科技评估需警惕“过度”倾向、“管理主义”陷阱

作者简介：方衍，中国科技评估中心研究员，主要研究方向为科技政策、科技评估。

您可能也对以下帖子感兴趣

中美友好合作故事——十万名中国弃婴长大了

中美友好合作故事——十万名中国弃婴长大了

中美友好合作故事——十万名中国弃婴长大了

看个病要排队两年，癌症都被拖成晚期

中共中央批准：作出对高朋逮捕决定

生成图片，分享到微信朋友圈

科技评估需警惕“过度”倾向、“管理主义”陷阱

作者简介：方衍，中国科技评估中心研究员，主要研究方向为科技政策、科技评估。

您可能也对以下帖子感兴趣